This paper studies offline policy learning, which aims at utilizing observations collected a priori (from either fixed or adaptively evolving behavior policies) to learn an optimal individualized decision rule that achieves the best overall outcomes for a given population. Existing policy learning methods rely on a uniform overlap assumption, i.e., the propensities of exploring all actions for all individual characteristics are lower bounded in the offline dataset; put differently, the performance of the existing methods depends on the worst-case propensity in the offline dataset. As one has no control over the data collection process, this assumption can be unrealistic in many situations, especially when the behavior policies are allowed to evolve over time with diminishing propensities for certain actions. In this paper, we propose a new algorithm that optimizes lower confidence bounds (LCBs) -- instead of point estimates -- of the policy values. The LCBs are constructed using knowledge of the behavior policies for collecting the offline data. Without assuming any uniform overlap condition, we establish a data-dependent upper bound for the suboptimality of our algorithm, which only depends on (i) the overlap for the optimal policy, and (ii) the complexity of the policy class we optimize over. As an implication, for adaptively collected data, we ensure efficient policy learning as long as the propensities for optimal actions are lower bounded over time, while those for suboptimal ones are allowed to diminish arbitrarily fast. In our theoretical analysis, we develop a new self-normalized type concentration inequality for inverse-propensity-weighting estimators, generalizing the well-known empirical Bernstein's inequality to unbounded and non-i.i.d. data.
translated by 谷歌翻译
Deep convolutional neural networks have achieved great progress in image denoising tasks. However, their complicated architectures and heavy computational cost hinder their deployments on a mobile device. Some recent efforts in designing lightweight denoising networks focus on reducing either FLOPs (floating-point operations) or the number of parameters. However, these metrics are not directly correlated with the on-device latency. By performing extensive analysis and experiments, we identify the network architectures that can fully utilize powerful neural processing units (NPUs) and thus enjoy both low latency and excellent denoising performance. To this end, we propose a mobile-friendly denoising network, namely MFDNet. The experiments show that MFDNet achieves state-of-the-art performance on real-world denoising benchmarks SIDD and DND under real-time latency on mobile devices. The code and pre-trained models will be released.
translated by 谷歌翻译
无限维功能空间之间的学习映射已在机器学习的许多学科中取得了经验成功,包括生成建模,功能数据分析,因果推理和多方面的增强学习。在本文中,我们研究了在两个无限维sobolev繁殖内核希尔伯特空间之间学习希尔伯特 - 施密特操作员的统计限制。我们根据Sobolev Hilbert-Schmidt规范建立了信息理论的下限,并表明一种正规化学习了偏见轮廓以下的光谱成分,并且忽略了差异高于方差轮廓的频谱成分可以达到最佳学习率。同时,偏置和方差轮廓之间的光谱成分为我们设计计算可行的机器学习算法的灵活性。基于此观察结果,我们开发了一种多级内核操作员学习算法,该算法在无限维函数空间之间学习线性运算符时是最佳的。
translated by 谷歌翻译
尽管已经取得了重大的理论进步,但揭示了过度参数化神经网络的概括之谜仍然难以捉摸。在本文中,我们通过利用算法稳定性的概念来研究浅神经网络(SNN)的概括行为。我们考虑梯度下降(GD)和随机梯度下降(SGD)来训练SNN,因为这两者都通过通过早期停止来平衡优化和概括来发展一致的多余风险范围。与现有的GD分析相比,我们的新分析需要放松的过度参数化假设,并且还适用于SGD。改进的关键是更好地估计经验风险的Hessian矩阵的最小特征值,以及通过提供对其迭代材料的精制估计,沿GD和SGD的轨迹沿GD和SGD的轨迹进行了更好的估计。
translated by 谷歌翻译
Natarajan维度是表征多级PAC可学习性的基本工具,将VAPNIK-CHERVONENKIS(VC)维度推广到从二进制到多类分类问题。本说明在某些功能类别的Natarajan维度上建立了上限,包括(i)多级决策树和随机森林,以及(ii)具有二进制,线性和relu激活的多级神经网络。这些结果可能与描述某些多级学习算法的性能有关。
translated by 谷歌翻译
图像自适应查找表(LUTS)由于对颜色变换进行建模的高效率,在实时图像增强任务中取得了巨大的成功。但是,他们以耦合方式将完整的转换嵌入了仅颜色组件独立于颜色的部分和与组件相关的部分,仅以1D或3D的形式嵌入到单一类型的LUT中。该方案提高了由于两个因素而提高模型表现力或效率的困境。一方面,一维LUTS提供了较高的计算效率,但缺乏颜色组件相互作用的关键能力。另一方面,3D LUTS具有增强的组件与转换功能增强,但具有重记忆足迹,高训练难度和有限的细胞利用率。受图像信号处理器中常规的划分和互动实践的启发,我们提出了塞普鲁特(可分开的图像自适应查找表),以应对上述限制。具体而言,我们分别将单个颜色转换为与组件无关和组件相关的子转换的级联反应,分别将其实例化为1D和3D LUTS。这样,两个子转换的功能可以互相促进,其中3D LUT可以补充混合颜色组件的能力,而1D LUT重新分配了输入颜色以增加3D LUT的单元格使用,从而启用了启用的单元格。使用更轻巧的3D LUT。实验表明,所提出的方法比当前的最新方法提高了图片修饰数据集的性能,并在GPU和CPU上实现实时处理。
translated by 谷歌翻译
通常通过过去的选择来告知机器学习中的评估,例如要使用哪些数据集或指标。该标准化可以使用排行榜对平等基础进行比较,但是随着出现更好的替代方案,评估选择变得不佳。这个问题在自然语言生成中尤其相关,该语言需要不断改善的数据集,指标和人类评估以提出确定性的主张。为了使遵循最佳模型评估实践更加容易,我们介绍了GEMV2。新版本的一代,评估和指标基准为数据集,模型和指标开发人员提供了模块化基础架构,以使彼此受益。GEMV2支持40种记录的数据集中51种语言。所有数据集的模型都可以在线评估,我们的交互式数据卡创建和渲染工具使得在Living Benchmark中添加新数据集变得更加容易。
translated by 谷歌翻译
由于大型数据集中的深度学习模型需要大量时间和资源,因此希望构建一个小型合成数据集,我们可以通过该数据集充分训练深度学习模型。最近有一些作品通过复杂的BI级优化探索了有关凝结图像数据集的解决方案。例如,数据集冷凝(DC)匹配网络梯度W.R.T.大型数据和小合成数据,在每个外迭代处,网络权重优化了多个步骤。但是,现有方法具有其固有的局限性:(1)它们不直接适用于数据离散的图表; (2)由于所涉及的嵌套优化,冷凝过程在计算上昂贵。为了弥合差距,我们研究了针对图形数据集量身定制的有效数据集冷凝,在该数据集中我们将离散图结构模拟为概率模型。我们进一步提出了一个单步梯度匹配方案,该方案仅执行一个步骤,而无需训练网络权重。我们的理论分析表明,该策略可以生成合成图,从而导致实际图上的分类损失降低。各种图数据集的广泛实验证明了该方法的有效性和效率。特别是,我们能够将数据集大小降低90%,同时大约98%的原始性能,并且我们的方法明显快于多步梯度匹配(例如,CIFAR10中的15倍用于合成500个图)。
translated by 谷歌翻译
我们提出了DEFR,一种无检测方法,以在图像水平处识别人对象交互(HOI)而不使用对象位置或人类姿势。当探测器是现有方法的一个组成部分时,这是具有挑战性的。在本文中,我们提出了两个调查结果来提高无检测方法的性能,这显着优于辅助现有技术。首先,我们发现它至关重要,可以有效地利用了海上课程之间的语义相关性。可以通过使用Hoi标签的语言嵌入来初始化线性分类器来实现显着的增益,该分类器编码HOI的结构以指导培训。此外,我们提出了Log-Sum-exp符号(LSE-Sign)丢失,以便通过使用SoftMax格式平衡渐变渐变的渐变来促进长尾数据集上的多标签学习。我们的无检测方法实现了65.6地图在Hoi分类上的HICO分类,优于18.5地图的检测辅助状态(SOTA),在一次拍摄类中,52.7地图,超过了SOTA 27.3地图。与以前的工作不同,我们的分类模型(DEFR)可以直接用于HOI检测,而无需任何额外的训练,通过连接到废弃的对象检测器,其边界框输出被转换为DEFR的二进制掩模。令人惊讶的是,这两个解耦模型的这种简单的连接实现了SOTA性能(32.35张图)。
translated by 谷歌翻译
本文在课堂增量学习中使用视觉变压器(VIT)研究。令人惊讶的是,天真地应用Vit替代卷积神经网络(CNNS)导致性能下降。我们的分析揭示了三个天然使用VIT的问题:(a)vit在课程中较小时具有非常缓慢的会聚,(b)在比CNN的模型中观察到新类的更多偏差,并且(c)适当的学习率Vit太低,无法学习良好的分类器。基于此分析,我们展示了这些问题可以简单地通过使用现有技术来解决:使用卷积杆,平衡FineTuning来纠正偏置,以及分类器的更高学习率。我们的简单解决方案名为Vitil(Vit用于增量学习),为所有三类增量学习设置实现了全新的最先进的保证金,为研究界提供了强大的基线。例如,在ImageNet-1000上,我们的体内体达到69.20%的前1个精度为500个初始类别的15个初始类别,5个增量步骤(每次100个新类),表现优于leulir + dde ​​1.69%。对于10个增量步骤(100个新课程)的更具挑战性的协议,我们的方法优于PODNet 7.27%(65.13%与57.86%)。
translated by 谷歌翻译